URL
type
status
date
slug
summary
tags
category
icon
password
Kyutai STT
一种专为实时应用优化的语音转文字(Speech-to-Text)模型。
👉 你可以在 unmute.sh 上试用
👉 查看代码:GitHub
Kyutai STT 是一种流式语音转文字模型架构,在延迟和准确性之间取得了出色的平衡,非常适合交互式应用。它支持批处理(batching),因此只需一块 GPU 就能同时处理数百个对话。
我们发布了两个模型:
- kyutai/stt-1b-en_fr:低延迟模型,支持英文和法文,内置语义语音活动检测(VAD)。
- kyutai/stt-2.6b-en:更大的英文专用模型,追求极致准确性。
1.实时且准确
字错误率(WER)图表

字错误率越低越好。
Kyutai STT 是一种“流式”模型,意味着它会一边接收音频一边实时转录,而不是等到整段音频输入完成后再开始处理。因此非常适用于实时应用,比如 Unmute。
它能输出格式规范、带有标点的转录结果,还支持逐词时间戳。
在准确率方面,它的表现与目前最先进的非流式模型相当,后者通常需要整段音频数据。
2.语义语音活动检测(Semantic VAD)
对于像 Unmute 这样需要语音对话的应用,我们需要判断用户是否已经说完话,以便系统可以开始回应。
常见的方法是使用一个单独的语音活动检测模型,判断用户是否正在说话,然后在检测到用户停止说话后等待一段固定时间。
但这种方法有缺陷——人们说话时经常会暂停,固定等待时间很难适配所有情况,容易误判。
Kyutai STT 的解决方案是:不仅预测文本,还预测用户是否已经说完。系统会根据说话内容和语调,智能调整等待时间。
你可以在上面的演示中体验这一功能,注意提示“End of speech detected”。
目前,语义 VAD 只在 Rust 版本的服务器中提供,其他实现尚未支持。
3.超低延迟
- kyutai/stt-1b-en_fr 模型的延迟为 500 毫秒,即说出一个词后,大约 0.5 秒内就能转录出来。
- kyutai/stt-2.6b-en 的延迟为 2.5 秒,换取更高的准确率。
在 Unmute 中,我们使用一种叫做 “flush trick” 的技术进一步降低响应延迟:
当语音活动检测器判断用户说完后,虽然还要等 500ms(模型的延迟),但我们会让 STT 服务器尽快处理已有音频。
服务器的处理速度约为 4 倍实时速率,因此只需 125ms(500ms ÷ 4)即可处理完现有音频。通过这种方式,我们“加速了时间”,只需等 125ms 就能确保转录完成。
4.高并发能力
Kyutai STT 非常适合生产环境:
在一块 H100 GPU 上,它可以同时处理 400 条实时音频流。

这得益于我们独创的 延迟流建模架构(delayed streams modeling),让模型本身就能高效地批量处理数据,无需额外代码支持流式处理。
5.单通道语音转文字
相比之下,将 OpenAI 的 Whisper 模型变为流式(Whisper-Streaming)则需要单独的研究项目。这种方法是反复处理最后几秒音频,并拼接结果。
虽然技术上很强大,但 Whisper-Streaming 不支持批处理,因此吞吐量远低于 Kyutai STT。如果你希望延迟更低,它还需要更频繁地重新处理音频,进一步降低效率。
6.多种实现方式
根据你的需求,我们提供不同的实现版本,详细说明见 GitHub:
- PyTorch 版:适合研究和实验。如果你想在 Python 中调用模型,可选此版本。
- Rust 版:适合生产环境部署。Unmute 就是使用这个版本。
- 我们的 Rust 服务支持通过 websocket 进行流式访问。
- 在 L40S GPU 上,可以以 3 倍实时速率服务 64 个并发连接。
- MLX 版:适用于在 iPhone 和 Mac 上进行设备端推理。
- MLX 是 Apple 的机器学习框架,支持 Apple Silicon 上的硬件加速。
7.延迟流建模(Delayed Streams Modeling)
Kyutai STT 的核心创新,是我们在 Kyutai 首创的一项技术,称为“延迟流建模”,最初在 Moshi 项目中提出。

传统的语音转文字方法,是把完整音频输入模型,然后逐步生成文本(如 Whisper 采用的编码器-解码器结构)。

而 Kyutai STT 则将音频与文本建模为“时间对齐”的两个流:音频流和文字流是并列的,而不是线性先后关系。我们会延迟文本流几个时间帧,让模型有“前瞻”能力。

训练时:模型学会同时建模音频和文字两个流。推理时:我们实时输入音频,模型根据音频预测文本。
这种方式还有个好处是对称性:我们只要将延迟从文本流切换到音频流,再把文字作为输入固定,就可以变成一个文字转语音模型。我们只需在模型中加一点技巧,让它预测空白 token 来对齐时间轴。

我们稍后将开源文字转语音(TTS)模型,并发布论文介绍这两种模型的细节。
了解更多:
致谢
Kyutai STT、TTS 和 Unmute 项目由以下成员创建:
Alexandre Défossez、Edouard Grave、Eugene Kharitonov、Laurent Mazare、Gabriel de Marmiesse、Emmanuel Orsini、Patrick Perez、Václav Volhejn 和 Neil Zeghidour,以及 Kyutai 团队的其他支持者。
对这个话题感兴趣的小伙伴,欢迎加我一起探索交流~
